iT邦幫忙

0

(24)Python的基礎介紹和爬蟲

  • 分享至 

  • xImage
  •  

Python 網路爬蟲 Web Crawle(下)

接著我們使用 ptt電影版當作例子
網址:https://www.ptt.cc/bbs/movie/index.html

每篇文章都有標題我們希望用程式抓取這些資料

如果我們使用前面網路連線的方法,可以看到被禁止無法使用
https://ithelp.ithome.com.tw/upload/images/20221014/20152724tKAx7A1YAQ.png

到ptt網頁監控工具可以看得這個列表(按下f12後選取network)
https://ithelp.ithome.com.tw/upload/images/20221014/20152724Pdg4a80ueC.png

這是一般使用者進入網站會發送的訊息
https://ithelp.ithome.com.tw/upload/images/20221014/20152724iBeLM6tENM.png

我們需要讓我們的程式也發送這些訊息才不會被禁止使用

建立一個requset物件增加剛剛的 user-agent 讓我們的程式像是一個使用者進入,這樣就可以成功抓取網頁前端的程式碼
https://ithelp.ithome.com.tw/upload/images/20221014/20152724jVTbJ71zng.png

使用find它可以幫我找到一個符合要求的標籤https://ithelp.ithome.com.tw/upload/images/20221014/20152724CSgvpsQHGd.png

使用find_all可以抓取全部
https://ithelp.ithome.com.tw/upload/images/20221014/20152724t9HMqWWR79.png

參考來源:https://www.youtube.com/watch?v=9Z9xKWfNo7k&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=19


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言